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В статье рассматривается проблема управления искусственными интеллектуальными системами, которые 
способны в автономном режиме решать поставленные задачи даже при неполном наборе начальных 
данных. Описывается оригинальная иерархическая распределённая система управления, функциональные 
блоки которой выполнены на основе гетероассоциативных искусственных нейронных сетей. 
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Введение 


Одной из главных тенденций развития исследований и разработок в области 
искусственных интеллектуальных систем является проблема обеспечения их полной 
либо частичной (с привлечением человека в контур управления) автономности. Одной 
из характерных задач для автономных мобильных роботов является ограниченный по 
времени и запасу энергии процесс поиска в неизвестной местности искомого объекта 
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и возвращение в точку старта вместе с ним либо с некоторой информацией о нем. Как 
правило, искомый объект описан неполными, а в некоторых случаях даже противоре- 
чивыми начальными данными. 

Несмотря на свою сложность, описанная задача поиска объектов в неизвестной 
среде в естественной природе является типичной и имеет массу наглядных примеров 
своего успешного решения. Поэтому одним из перспективных методов управления 
интеллектуальными автономными системами считается построение бионических 
моделей систем управления (СУ). В данном подходе большое внимание уделяется 
изучению фундаментальных принципов функционирования естественных систем 
управления, определяющих поведение всего организма, и механизмов их эволюции, 
а не отдельные аспекты его проявления. 

Среди первых отечественных исследований в этом направлении были: разра- 
ботка транспортной тележки ТАИР (транспортный автономный интегральный робот), 
основанной на использовании М-автоматов Н.М. Амосова [1]; моделирование про- 
цессов поведения в программе «Животное» М.М. Бонгарда [2]; моделирование инди- 
видуального развития, обучения и эволюции организма с помощью теории функцио- 
нальных систем П.К. Анохина [3]; создание модели целесообразного поведения «Гиро- 
мат» Д.А. Поспелова [4]. В настоящее время на основе указанных работ, а также 
последних нейрофизиологических данных активно разрабатываются схемы управле- 
ния адаптивного поведения аниматов — искусственных моделей, поведение которых 
следует принципам поведения живых организмов. Параллельно, в отделе имита- 
ционных систем Института системного программирования РАН под руководством 
А.А. Жданова на основе собственной концептуальной модели нервной системы раз- 
рабатывается универсальный метод «Автономного адаптивного управления» [5], 
который уже сегодня находит практическое применение. 

Несмотря на то, что указанные системы бионического управления показывают 
довольно успешные результаты компьютерного моделирования и реальных испытаний, в 
каждой из них присутствуют свои недостатки, которые можно отнести скорей к способам 
их реализации, чем принципам функционирования. Одним из главных недостатков яв- 
ляется отсутствие единой масштабируемой «информационно-вычислительной» среды, на 
основе которой, как из кирпичиков, можно было бы проектировать бионические СУ. 
Также не всегда достаточное внимание уделяется иерархии механизмов достижения 
целей, которая сформировалась в естественных СУ эволюционным путём. 

Целью данной работы является разработка оригинальной иерархической рас- 
пределённой системы управления для целенаправленного движения автономного 
мобильного робота в заранее неизвестной местности, функциональные блоки кото- 
рой реализованы на основе единой структуры гетероассоциативных искусственных 
нейронных сетей. 


Реализация поведения в модели «организм - среда» 


Чтобы представить современный уровень понимания принципов работы био- 
нических СУ, рассмотрим несколько примеров их реализаций, предназначенных для 
управления автономными мобильными робототехническими аппаратами [5], [6]. Все 
указанные бионические модели в той или иной степени основаны на аналогии с уп- 
равляющими системами живых организмов — их нервных систем, реализующих 
принципы адаптивного распознавания входной информации и универсальные поисковые 
алгоритмы соответствующего реагирования. 
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Как правило, в подобных моделях аналитическая модель объекта управления (ОУ) 
априори неизвестна. Необходимые знания добываются бионической СУ эмпирически, в 
процессе взаимодействия со средой и самим ОУ [4-7]. Таким образом, приспособление 
организма к среде достигается не только путём соответствия своего строения к условиям 
функционирования, но и в результате способности к извлечению информации об особен- 
ностях среды, что выступает как своеобразный аналог ее познания [8]. 

Для того чтобы анализировать поведение каких-либо объектов воспользуемся опре- 
делением следующих понятий [4]: 

— объект управления - искусственный организм (далее просто организм), поведе- 
ние которого рассматривается; причём, обладая существенной динамичностью и изменяясь 
под действием среды, он должен сохранять некоторые связи между своими составными 
частями, позволяющими рассматривать его как одну целостную систему; 

— среда - часть реального мира, которая в той или мере может воздействовать на 
объект и подвергаться существенным воздействиям с его стороны; 

— взаимодействие среды и объекта — процесс взаимного влияния и изменения; 

— наблюдатель — лицо, с определённой целью изучающее взаимные связи между 
первыми тремя понятиями (далее оператор). 

Следует подчеркнуть, что в процессе своего взаимодействия ОУ и среда обмениваются 
между собой как энергией, так и информацией, причём последний компонент отражает 
особенности организации указанного взаимодействия. 

Также следует уделить внимание такому немаловажному понятию как внутрен- 
няя среда, которая определяет состояние самого ОУ и может влиять на его поведение. 
Наиболее полно указанная модель «организм — среда» описана в работе [5], в которой 
явно прослеживается дифференциация между ОУ (роботом), его СУ, средой функцио- 
нирования и заинтересованным лицом (оператором). 

В процессе реализации своего целенаправленного поведения не только ОУ под- 
вергается воздействию среды, но и сам воздействует на неё. Поэтому процесс поведе- 
ния, в который вовлечены исследуемый объект и его среда функционирования, всегда 
являются сложной динамической системой. Отсюда следует, что в процессе обучения 
СУ даже неболышое отклонение внешних условий в ту или иную сторону может 
изменить эволюцию её развития, а следственно и структуру самой СУ. 

В монографии [5| описана модель распределённой СУ мобильным роботом, в ко- 
торой для достижения внутренних целей реализуется цикл управляемого взаимодействия 


й, > а, >17 >а, >, >..., где й - воздействие эффекторов робота на внешнюю 


среду, 4 — реакция внешней среды, 7 — процесс преобразования входных сигналов от 
внешней и внутренней сред в информационные входные сигналы для СУ, а — инфор- 
мационный процесс в СУ, а] — шаг модельного времени. 

Данная модель позволяет выводить на основе анализа накопленных СУ статисти- 
ческих данных прогнозируемые оценки каждого из возможных действий робота и вы- 
бирать из них единственное, наиболее оптимальное с точки зрения критериев априори 
заложенных целевых функций. Таким образом, внешняя среда является не только ус- 
ловием развития (обучения) ОУ, но и его существенным компонентом [8]. 


Три эволюционных типа поведения организма 


Основное назначение мозга — центра нервной системы — заключается в обеспе- 
чении выживания высокоорганизованных организмов в сложной среде. Поэтому 
высшие функции мозга являются лишь надстройкой над остальными более простыми, 
но весьма важными, его функциями [8], [9]. 
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Одной из главных особенностей нервной системы живых организмов, позво- 
ляющей им приспосабливаться к изменениям среды, является выработка новых форм 
реагирования на внешние и внутренние воздействия [9]. Такие формы поведения, ос- 
новная цель которых заключается в приобретении новой информации, называются 
обучением [4]. Эту способность можно определить как совокупность процессов, обес- 
печивающих выработку и закрепление форм реагирования, адекватных физиологи- 
ческим, биологическим и социальным потребностям организма. 

Выделяют три различные группы способов организации поведения: реактивное, 
оперантное и когнитивное, при которых организм взаимодействует со средой по-раз- 
ному [9]. Под реактивным поведением подразумевается пассивное взаимодействие, 
когда организм на длительный или короткий промежуток времени запоминает свои 
индивидуальные реакции на определённые стимулы, при котором происходит транс- 
формация нейронных цепей и формирование новых следов памяти. Среди разновид- 
ностей реактивного поведения обычно выделяют безусловные и условные рефлексы. 

Оперантное (экстремальное) поведение представляет собой закрепление таких 
действий, последствия которых для организма желательны, и отказ от тех действий, 
которые приводят к нежелательным последствиям. Различают три разновидности 
этого обучения: метод проб и ошибок, формирование автоматизированных реакций 
(последовательности простейших действий) и подражание [4]. 

Когнитивное поведение в эволюционном отношении является наиболее поздним 
и наиболее эффективным типом обучения. В полном объеме такое поведение присуще 
только людям, хотя какие-то его эволюционные предшественники или отдельные эле- 
менты наблюдаются и у высших животных [7], [9]. Если такое поведение присуще 
искусственным системам, то оно называется интеллектуальным. 

В следующей оригинальной работе [6] описывается схема целенаправленного 
поведения мобильного робота, наделённого иерархической системой начальных це- 
левых функций, а также набором безусловных рефлексов (реализующиеся незави- 
симо от доминирующей цели), которая позволяет достигать условия самосохранения 
и предназначения робота. Целенаправленное поведение робота в указанной схеме 
обеспечивается благодаря наличию трех контуров управления: безусловного, поис- 
кового и информационного, которые используют все три приведённые выше способа 
обучения. 

Безусловное управление предназначено для того, чтобы такие существенные пере- 
менные ОУ, как напряжение и сила тока в движителях, максимально допустимая ско- 
рость движения, а также расстояния до внешних преград, не выходили за критические 
значения. Поисковое, или экстремальное, управление с помощью случайных или 
направленных опытом действий стремится минимизировать целевые функции организ- 
ма. Причём в СУ запоминаются только наиболее удачные попытки. Такой вид обучения 
ещё известен как метод обучения с подкреплением. Однако с точки зрения формирова- 
ния интеллекта, наиболыший интерес представляет информационный контур, реализо- 
ванный на основе нейросетевых архитектур. Подобные интеллектуальные контуры 
называются стратегическими, они предназначены для прогнозирования изменений си- 
туаций на несколько шагов вперёд. 


Проблема дообучения в нейросетевых классификаторах 


Функции распознавания — фундаментальное СВОЙСТВО ЖИВОЙ природы, которое 
можно обнаружить, начиная от молекулярного и клеточного уровня и заканчивая 
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высшими психическими функциями. Распознавание образов различной природы 
(тактильные, слуховые, зрительные и т.д.) для СУ живых организмов представляет 
собой сложный процесс, чаще всего не поддающийся алгоритмизации. 

Однако, несмотря на полноту и универсальность базиса классических нейро- 
сетевых архитектур, которые хорошо справляются с типовыми задачами классифи- 
кации, в подобных задачах как реализация алгоритмов управления автономными 
роботами их часто подвергают критике [5], [6]. Во-первых, это связано с тем, что они не 
являются СУ в полном смысле слова, а лишь имитируют систему распознавания. 
Другими словами, функция «вход-выход» ищется от одних переменных, а значения це- 
левой функции системы задаются на других переменных. Во-вторых, большинство 
классических алгоритмов обучения типа обратного распространения ошибки работают 
только в супервизорном режиме (несамообучаемы). А в-третьих, большинство искусс- 
твенных нейронных сетей не способны работать в режиме дообучения, т.е. в процессе 
добавления к обученной сети нового образа он уничтожает или изменяет результаты 
предшествующего обучения. 

В некоторых случаях процесс затирания старой информации является несу- 
щественным. Если набор обучающих векторов фиксирован, то процесс обучения 
многослойного персептрона по методу обратного распространения ошибки заклю- 
чается в многократном циклическом предъявлении обучающей выборки. В итоге он 
способен запомнить весь пакет обучающей информации. Однако попытки дообу- 
чения персептрона новым образам приводят к модификации синаптических связей с 
неконтролируемым разрушением структуры памяти о предыдущих образах. Таким 
образом, классический персептрон не способен к запоминанию новой информации и 
для такой сети требуется полное переобучение [10]. 

В указанных выше работах [5], [6] предложены оригинальные архитектуры 
самообучаемых нейроподобных управляющих элементов, способных в потоке сен- 
сорных данных выделять неслучайные последовательности — образы, отражающие 
пространственно-временные явления и процессы в системе «объект управления — 
внешняя среда». Однако предложенные топологии нейроподобных сетей обладают 
своими недостатками, главным из которых является отсутствие чёткой процедуры 
построения универсальной СУ. Действующие приложения собираются из отдельных 
нейронов эвристически, так как отдельному нейрону соответствует отдельный образ. 
Поэтому в работе [5] сети являются семантическими, а адаптивность достигается 
благодаря избыточности числа нейронов, соответствующих множеству пробных 
образов. 


Структура предлагаемой системы управления 


Для преодоления указанных выше проблем в статье [10] автором был предложен 
нейросетевой классификатор, состоящей из двухслойной ассоциативной нейроподобной 
сети, которая способна дообучаться в процессе функционирования. Отличительной 
особенностью описываемой сети является обучение с учителем на начальном этапе 
(запись безусловных рефлексов) и наличие ассоциативного поиска сохраненных 
образов в долговременной памяти без перебора известных эталонов. В дальнейших 
работах автором была предложена архитектура и метод функционирования гетеро- 
ассоциативной сети, которая способна записывать, считывать и обрабатывать сен- 
сорную информацию [11], включая ее использование для позиционного управления 
манипулятором [12]. Благодаря своим уникальным свойствам предложенная архи- 
тектура может рассматриваться как основа для реализации универсальной среды 
распознавания образов и принятия решений. 
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В данной работе предлагается оригинальная нейросетевая структура иерар- 
хического управления с распределённой обработкой информации, которая в той или 
иной степени может имитировать работу естественных СУ (рис. 1), обладающих 
такими характерными свойствами как: 

1) восприятие информации из внешней и внутренней среды; 

2) активность, способность к деятельности; 

3) автономность — относительная независимость от окружающей среды в процессе 
достижения собственных целей, достигаемая при наличии достаточного (но ограничен- 
ного) ресурсного обеспечения; 

4) целенаправленность — наличие собственных источников мотивации; 

5) адаптивность — способность оперативно приспосабливаться при смене целей 
или факторов среды. 

Опираясь на методологию общей теории поведения естественных и искусственных 
систем Д.А. Поспелова [4] и метод автономного адаптивного управления А.А. Жданова [5], 
предложенная СУ состоит из распределенных блоков процессор и память (закрашен- 
ные блоки), а также блока оператор, причём первые два находятся на борту ОУ. Как 
правило, оператор взаимодействует с СУ только до начала функционирования (во 
время ввода целевых указаний и необходимых начальных данных), либо в крити- 
ческих ситуациях. СУ получает информацию от внешней и внутренней сред посред- 
ством рецепторов (Р) и воздействует на первую с помощью эффекторов (Э). 

Из рис.1 видно, что процессор и память, наподобие естественных СУ имеют 
распределённую структуру. Одной из самых важных частей процессора является блок 
предобработки данных — предпроцессор, представленный блоком формирования и 
распознавания образов (ФРО), в котором из поступающих данных извлекается не- 
обходимая другим блокам информация. Аналогию с данным способом можно найти 
и у многих живых организмов, у которых в зрительном тракте производится значи- 
тельная часть визуальной обработки. Сам процессор представлен блоком принятия 
решений (ПР), контролирующим иерархию выполнения подцелей, и блоком эмоций 
и мотивации (ЭМ), который отвечает за когнитивные функции СУ. 
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Рисунок 1 — Структура предлагаемой бионической системы управления 
Распределенная память представлена базой данных (БД), базой знаний (БЗ) и 
блоком рефлексивного аппарата (РА). БД не только собирает и передаёт сенсорные 
данные в ФРО, но также ведёт их регистрацию (параллельно записывая управ- 
ляющие сигналы для Э), чтобы после выполнения роботом задания оператор мог 
провести полный анализ принятых СУ решений. 
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Таким образом, в предлагаемой бионической СУ реализуются все три описан- 

ных выше типа поведения: 

1. Р>ФРО > РА-> ПР > Э - реактивный; 

2. Р>ФРО -> Б3 <> ПР >> Э - экстремальный; 

3. Р>ФРО-> Б3 > ЭМ > ПР > Э -когнитивный. 

Знак «<>» указывает на процесс двунаправленного обмена информацией, ко- 
торый во 2-м контуре возникает благодаря наличию обратной связи корректировки 
памяти — процесс дообучения [10], ав 3-ем - в результате наличия итерационного 
способа извлечения информации из БЗ [11]. 

Безусловные и условные рефлексы, задействованные в первом контуре предло- 
женной СУ, реализованы в блоке РА в виде двух различных нейроподобных гетеро- 
ассоциативных сетей, которые при поступлении определённого стимула вызывают 
строго фиксированную последовательность реакций [12]. Однако если безусловные 
рефлексы записываются оператором в сеть до начала функционирования роботизи- 
рованного аппарата, то условные, обеспечивающие индивидуальную систему при- 
способления ОУ к небольшим изменениям среды, должны запоминаться с помощью 
процессов самоорганизации (обучение без учителя) — в процессе периодических 
внешних воздействий на ОУ. Причём, если синаптические связи первой сети содер- 
жат информацию о критических значениях показателей энергетической и транспорт- 
ной систем и должны быть строго фиксированы, то у второй — синаптические связи 
должны обладать способностью к запоминанию результатов обучения только на 
конечное время. Причём если сигналы на выходе сети безусловных рефлексов яв- 
ляются пассивными, то сигналы от сети условных рефлексов являются активными, 
т.е. они непосредственно влияют на характер работы Э. 

Второй контур (экстремальное управление) предназначен для реализации более 
сложного типа поведения ОУ, который способен не только распознавать ранее 
обученные ситуации и реагировать на них соответствующими действиями Э, но 
также идентифицировать и запоминать новые. Наиболее ответственным звеном в 
данном контуре является БЗ, реализованная на основе системы классификаторов, 
которые можно рассматривать как специальный случай теории обучения с подкреп- 
лением [10]. В качестве прототипа был взят адаптивный нейросетевой классифи- 
катор, который благодаря наличию гетероассоциативного механизма позволяет 
быстро извлекать из памяти эталонные образы и обрабатывать входную информа- 
цию [11], [12]. 

Третий (когнитивный) контур управления предназначен для отображения за- 
кономерностей реального мира в виде неформального опыта с целью достижения 
целей, поставленные оператором и необходимые для самосохранения самого робота 
[6], [10]. Когнитивный контур управления предназначен для решения таких ответст- 
венных задач, как декомпозиция целевых требований на подзадачи- мотивация, 
прогнозирование и оценка состояний внешней и внутренней сред — эмоциональная 
окраска, и разработка алгоритмов принятия решений — проектирование. 

Декомпозицию целевых требований можно рассматривать как процесс класте- 
ризации набора элементарных действий, необходимых для достижения эффекторами 
конечных состояний, которые указаны в мотивациях. Как положительные, так и от- 
рицательные эмоции, определяющие величину побуждения к достижению целей, воз- 
никают в процессе рассогласования между прогнозируемыми и действительными 
состояниями ОУ [7]. В отличие от двух предшествующих тактических контуров уп- 
равления (реактивного и экстремального), третий является стратегическим. Поэтому 
процесс проектирования всегда сопряжен с выбором оптимального по определенным 
критериям решения из нескольких альтернативных. 
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Для решения всех трех задач когнитивного контура в БЗ требуется наличие уже 
готовых, апробированных, образов-шаблонов, которые, по-видимому, должны иметь 
большую размерность. В связи с этим, данные шаблоны предлагается записывать в 
БЗ путем обучения в виде ассоциативных последовательностей [10-12]. 

В каждом из трёх приведённых контуров управления блок Э получает управ- 
ляющие команды от блока ПР, что ещё раз подчёркивает его селективную функцию. 
Таким образом, предложенная бионическая СУ обладает всеми необходимыми сред- 
ствами для оперативного реагирования на различные внешние стимулы, а также для 
достижения некоторых системных целей. Для этого в блоках распределённой памяти 
хранится не просто набор некоторых целей, а строго иерархическая система целей и 
подцелей [12]. 


Выводы 


Предложена структура бионической системы управления, предназначенная для 
управления автономными мобильными роботами, которая обладает наиболее важ- 
ными свойствами (распределенность и подчиненность вычислений) и функциями 
(автономность, целенаправленность и адаптивность) естественных СУ. С одной сто- 
роны, данная система имеет строгую иерархическую структуру, состоящую из трёх 
контуров управления: реактивного, экстремального и когнитивного. С другой сто- 
роны, все вычисления производятся параллельно и распределено в соответствующих 
функциональных блоках, реализованных с помощью гетероассоциативных нейро- 
подобных сетей. Данный подход позволяет рассматривать предложенную систему уп- 
равления как универсальную масштабируемую нейросетевую вычислительную среду, 
состоящую из идентичных многофункциональных элементов. 
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